杨振1,李琳2,柴仕元1,黄吉传3,朴海音1,周德云1
摘要: 空战通常是一个连续且包含多回合导弹攻防对抗的过程,UCAV(Unmanned Combat Aerial Vehicle)在规避来 袭空空导弹的过程中应该综合考虑机动对整个空战对抗任务的影响,而不是仅仅关注安全性因素。对此,本文提出了脱 靶量、耗能以及终端态势优势等面向多战术需求条件下的UCAV空战自主规避机动策略生成方法。建立了UCAV-导弹三 维空间追逃模型以及UCAV自主规避的状态空间、动作空间和奖励函数模型,针对该模型提出了LSTM-Dueling DDQN (Long Short-Term Memory-Dueling Double Deep Q Network)算法,该算法融合Double DQN(Double Deep Q Network) 和Dueling DQN(Dueling Deep Q Network)网络模型,并使用LSTM网络提取时序特征。此外基于探索课程学习思想, 对稠密与稀疏奖励函数进行时序融合,促进人工经验和策略探索对规避机动学习过程的共同引导。针对战术耦合过程中 的需求冲突问题,构建切比雪夫方法求解面向不同战术需求偏重程度的Pareto策略解集,反映空战机动规避中多种战术 需求的矛盾性与耦合性。仿真实验与结果分析表明,本文所提出的方法具有良好的收敛速度和学习效果,对于解决面向 多战术需求空战自主规避机动问题的可行性与有效性显著,所得出的规避机动方法能够在保证UCAV自身安全性的同时 反应出不同的规避战术需求。
中图分类号: